Stratégies d'échantillonnage pour l'apprentissage par renforcement batch
نویسندگان
چکیده
RÉSUMÉ. Cet article présente deux stratégies d’échantillonnage dans le contexte de l’apprentissage par renforcement en mode “batch”. La première stratégie repose sur l’idée que les expériences susceptibles de mener à une modification de la politique de décision courante sont particulièrement informatives. Etant donné a priori un algorithme d’inférence de politiques de décision ainsi qu’un modèle prédictif du système, une expérience est réalisée si, étant donné le modèle prédictif, cette expérience mène à l’apprentissage d’une politique de décision différente. La deuxième stratégie exploite des résultats récemment publiés pour calculer des bornes sur le retour des politiques de décision de manière à sélectionner des expériences améliorant la précision des bornes afin de discriminer les politiques non-optimales. Ces deux stratégies sont illustrées sur des problèmes élémentaires et les résultats obtenus sont prometteurs.
منابع مشابه
Classification structurée pour l'apprentissage par renforcement inverse
Résumé : Cette contribution traite du problème de l’apprentissage par imitation par le biais de l’apprentissage par renforcement inverse (ARI). Dans ce contexte, un expert accomplit une tâche qu’un agent artificiel doit essayer de reproduire. L’ARI part du postulat que l’expert optimise avec succès une fonction de récompense ; le problème consiste à deviner cette fonction à partir de traces du ...
متن کاملAdaptation de la matrice de covariance pour l'apprentissage par renforcement direct
Résumé : La résolution de problèmes à états et actions continus par l’optimisation de politiques paramétriques est un sujet d’intérêt récent en apprentissage par renforcement. L’algorithme PI est un exemple de cette approche, qui bénéficie de fondements mathématiques solides tirés de la commande stochastique optimale et des outils de la théorie de l’estimation statistique. Dans cet article, nou...
متن کاملStratégies de supervision pour l'apprentissage en-ligne d'un classifieur évolutif de commandes gestuelles
RÉSUMÉ. Les interfaces homme-machine tactiles permettent de nouveaux modes d’interaction comme l’utilisation de commandes gestuelles. Afin de mémoriser facilement plus d’une douzaine de commandes, il est important de pouvoir les personnaliser. Le classifieur utilisé pour reconnaitre les symboles dessinés doit donc être personnalisable, pouvoir s’initialiser à partir de très peu de données, et é...
متن کاملFiltrage bayésien de la récompense
Résumé : Une large variété de schémas d’approximation de la fonction de valeur a été appliquée à l’apprentissage par renforcement. Cependant, les approches par filtrage bayésien, qui se sont pourtant montrées efficaces dans d’autres domaines comme l’apprentissage de paramètres pour les réseaux neuronaux, ont été peu étudiées jusqu’à présent. Cette contribution introduit un cadre de travail géné...
متن کاملApprentissage par imitation dans un cadre batch , off - policy et sans modèle
Résumé : Ce papier traite le problème de l’apprentissage par imitation, c’est à dire la résolution du problème du contrôle optimal à partir de données tirées de démonstrations d’un expert. L’apprentissage par renforcement inverse (IRL) propose un cadre efficace pour résoudre ce problème. En se basant sur l’hypothèse que l’expert maximise une fonction de valeur, l’IRL essaie d’apprendre la récom...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Revue d'Intelligence Artificielle
دوره 27 شماره
صفحات -
تاریخ انتشار 2013